古文 LIWC 词典 的 构建 及 初步 分 析 


范 妈 > 榕 “ 邢 付 贵 ” 刘 兴 云 “ 朱 廷 动 ” 
"(中 国 科学 院 大 学 北京 100049) 
* (中 国 科 学 院 心 理 研究 所 ， 北 京 100101) 


摘要 : [背景 ]LIWC〈 基 于 语词 计量 的 文本 分 析 ) 以 关键 词 的 词 频 统计 为 基础 ， 可 对 个 体 和 群 
体 的 表达 语句 的 心理 学 意义 等 方面 进行 量化 分 析 。 由 于 文言 文 的 表达 方式 与 现代 汉语 存在 明 
显 的 差异 ， 为 了 分 析 文 言 文 文本 的 心理 学 意义 ， 我 们 在 简体 中 文 LIWC 词典 (Simplified 
Chinese LIWC 2015 年 版 本 ， 简 称 SC-LIWC ) 的 基础 上 , 构建 了 古文 LIWCCClassical Chinese 
LIWC， 以 下 简称 CC-LIWC) 词典 。[ 目 的 ] 本 研究 的 目的 是 探究 如 何 构建 CC-LIWC 词典 并 介 
如 何 使 用 该 词典 对 古文 文本 进行 分 析 。 [方法 ] 获 取 在 线 汉 语词 典 的 全 部 词汇 及 其 对 应 解释 ， 
保留 文言 文 词 及 其 现代 文 译文 , 并 从 译文 中 寻找 SC-LIWC 词 , 将 SC-LIWC 词 与 文言 文 词 进行 
匹配 。 对 匹配 结果 进行 人 工 标注 ， 确 保 结果 的 一 致 性 与 准确 性 。[ 结 果 ] 最 终生 成 的 CC-LIWC 
包含 了 81 个 词类 与 49136 个 文言 文 词 条 。 [局限 ] 古 文中 一 词 多 义 、 一 词 多 性 的 情况 较为 
普遍 ， 对 词典 中 词汇 的 分 类 存在 一 定 影响 。[ 结 论 ] 使 用 CC-LIWC 对 《论语 (节选) 》、《 孤 
愤 》 进 行 词 频 分 析 , 分 析 结果 体现 了 儒家 的 中 庸 与 法 家 的 注重 逻辑 辩证 的 区 别 , 说 明 CC-LIWC 
词典 能 够 有 效 区 分 文本 的 表达 倾向 。 
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Abstract: 
[Background] Based on counting frequency of specially selected words, LIWC (known as 
Linguistic Inquiry and Word Count) is a useful tool to analyze expressions of writings or other 
texts created by individuals or group, for purpose of figuring out the psychological meanings 
inside the texts. In ancient China, the classical style of writing has a striking difference with 
modern times. In order to analyze the psychological meanings of classical Chinese text, we 
construct a Classical Chinese version of LIWC dictionary (known as CC-LIWC), based on the 
2015 edition of Simplified Chinese LIWC (known as SC-LIWC). 
[Objective] In this paper, we show the constructing process of CC-LIWC and give an example 
of how to use the dictionary to analyze classical Chinese text. 
[Methods] First, we obtain all the words (including modern Chinese and Classical Chinese words) 
and their corresponding explanations from the online Chinese dictionary and keep the classical 
Chinese words with their modern translation; second, we search SC-LIWC words in the 


explanations. In this way, SC-LIWC words are mapping with the classical Chinese words; finally, 


we invite ancient Chinese based professionals to check the mapping results manually to ensure the 
consistency and accuracy of the results. 

[Results] The final dictionary includes 81 categories and 49136 classical Chinese entries. 
[Limitations] In classical Chinese context, polysemy or diversity of a word is very common, which 
affects the classification of words in the dictionary. 

[Conclusion] we use CC-LIWC to analyze The Analects(excerpts) and The Isolated Indignation. 
The result shows the difference between the moderation of Confucian and the dialectical thinking 
of Legalist. Therefore, CC-LIWC dictionary can distinguish the expression tendency of text 
efficiently. 
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1 引言 

现 有 对 中 国 历史 的 研究 , 多 从 定性 层面 上 进行 分 析 与 解读 , 而 鲜 有 研究 从 量化 分 析 角 度 
开展 实证 研究 。 随 着 大 数据 及 自然 语言 处 理 技术 (Natural Language Process，NLP) 的 发 
展 与 日 益 成 熟 , 我 们 现在 可 以 借助 数理 统计 与 计算 机 技术 , 对 中 国 历史 史料 记载 等 进行 量化 
分 析 , 从 而 佐证 以 往 的 定性 分 析 结 论 或 得 出 更 多 不 同 以 往 的 新 论点 。 此 外 , 利用 大 数据 技术 ， 
我 们 还 可 以 处 理 更 大 规模 的 历史 文本 数据 , 突破 以 往 人 工 研 究 的 局 限 性 ， 从 一 个 更 为 宏观 且 
实证 的 角度 去 看 待 中 国 历史 演化 过 程 。 历史 是 由 人 创造 的 , 对 历史 的 分 析 ， 离 不 开 对 生活 在 
那个 历史 年 代 的 人 们 的 分 析 ， 包 括 群 体 与 个 体 ,， 文化 与 心理 等 。 利 用 现代 信息 技术 , 可 以 基 
于 史料 数据 的 基础 ， 进 行 很 多 方面 的 全 新 研究 ， 开 展 数 字 化 心理 考古 ， 进 行 共 时 性 分 析 ( 横 
向 对 比 各 朝代 的 不 同 特点 ) 、 历 时 性 分 析 〈 特 定 文化 的 时 代 变 迁 ) 、 对 特定 群体 或 个 体 的 心 
理 特 征 进行 分 析 〈 从 科学 心理 学 层面 建立 对 中 国 历史 人 物 的 人 格 解读 ) 等 。 

LIWC 词典 是 一 种 基于 语词 计量 的 文本 分 析 工 具 ， 其 开发 的 目的 在 于 使 用 计算 机 程序 代 
蔡 人 工 评 分 对 文本 进行 分 析 , 其 用 途 主要 是 对 个 体 和 群体 的 表达 语句 的 心理 学 意义 等 方面 进 
行 量化 分 析 。LIWC 是 属于 自然 语言 处 理 技术 中 的 一 种 ， 它 可 以 对 文本 内 容 进行 量化 分 析 并 
将 导入 的 文本 文件 的 不 同类 别 的 词语 (尤其 是 心理 学 类 词语 ) 加 以 计算 ,比如 因果 词 、 情 绪 
词 、 认 知 词 等 心理 词类 在 整个 文本 中 的 使 用 百分比 "。LIWC 主要 是 统计 文本 中 反映 不 同情 
绪 、 认 知 过 程 、 个 体 等 类 别 的 词 所 占 文本 的 百分比 ， 从 量化 角度 理解 文本 所 表达 的 内 容 ， 而 
不 需 人 工 的 参与 ， 适 用 于 对 大 量 文本 进行 量化 分 析 的 场景 。 

一 个 完整 的 LIWC 包含 LIWC 词典 主体 及 对 应 的 词 频 统计 程序 。 其 中 LIWC 词典 包含 两 个 
部 分 ， 第 一 个 部 分 是 LIWC 类 别 编号 及 类 别名 称 ， 第 二 部 分 是 LIWC 词汇 及 其 所 属 类 别 编号 。 

不 同 于 现代 汉语 ,文言 文 作为 古人 写作 用 的 文体 ， 有 其 特定 的 表达 方式 。 为 了 分 析 文 言 
文 文本 的 心理 学 意义 ， 我 们 在 SC-LIWC 词典 的 基础 上 ， 构 建 了 古文 LIWC 词典 (Classical 
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Chinese LIWC， CC-LIWC) 词 典 。 本 研究 的 目的 是 探究 如 何 构建 CC-LIWC 词典 并 介绍 如 何 使 


为 


用 CCLIWC2015 对 文言 文 文本 进行 初步 分 析 。 
2 方法 

本 文采 用 的 翻译 方法 是 先 找到 文言 文 词 及 其 现代 译文 , 从 译文 中 查找 对 应 的 SC-LIWC 词 ， 
将 SC-LIWC 词 与 文言 文 进 行 匹配 。 通 过 这 种 方式 将 所 有 SC-LIWC 现代 汉语 词 反 向 翻译 为 文 
言 文 词 汇 。 我 们 邀请 了 古文 专业 的 研究 生 通 过 人 工 标注 的 方式 确认 文言 文 候选 词 与 LIWC 词 
的 意思 一 致 ， 确 保 翻译 的 准确 性 。 
2.1 数据 收集 

本 研究 采用 的 数据 包括 文言 文 词 及 LIWC 词典 两 个 部 分 : 〈1) 文言文 词 部 分 , 来 源 于 在 
线 汉语 词典 的 词汇 及 其 释义 与 示例 ; (2) LIWC 词典 部 分 ， 采 用 了 SCLIWC2015 版 本 。 
2.2 数据 处 理 

对 于 从 在 线 汉语 词典 获取 到 的 词汇 ， 单 字 词 使 用 文言 文字 典 “ 进 行 了 过 滤 ， 双 字 词 及 多 
字 词 ,使 用 汉语 古典 文本 数据 库 ” 进 行 过 滤 , 保留 古 汉语 词 及 其 译文 删除 非 古 汉语 词汇 , 保 
共计 80 多 万 条 词 条 。 

对 于 SCLIWC2015 词典 ， 由 于 存在 部 分 英文 单词 与 网 络 用 语 等 ， 在 古代 没有 对 应 语 境 ， 
因此 我 们 将 现代 汉语 特有 “文言 文中 无 对 应 语义 ) 的 词汇 吻 除 。 类 别 部 分 保留 了 原 有 的 81 
个 词类 , 词 表 部 分 去 掉 了 一 些 网 络 词 和 标点 符号 等 , 一 共 去 掉 了 1365 个 词 ， 留 下 8438 个 词 
用 于 翻译 。 

最 后 从 古 汉 语词 的 译文 中 寻找 SC-LIWC 词 , 由 此 将 SC-LIWC 词 与 古 汉 语词 进行 匹配 , 形 
成 对 应 关系 。 
2.2.2 人 工 标 注 

我 们 邀请 了 6 位 古文 专业 研究 生 对 匹配 结果 进行 人 工 标注 。 目 的 在 于 确认 SC-LIWC 词 
汇 与 其 匹配 的 古 汉 语词 意思 一 致 ， 确 保 匹配 的 准确 性 。 待 标注 数据 分 为 两 批 ， 每 批 分 为 两 组 
数据 ， 共 计 4 组 数据 。 为 了 保证 标注 结果 的 一 致 性 ， 我 们 对 标注 要 求 进行 了 基本 的 解释 说 
明 , 取出 小 部 分 数据 给 标注 者 进行 标注 , 测试 标注 者 之 间 标 注 的 一 致 性 , 确认 一 致 性 达到 85% 
以 上 ， 才 开始 进行 正式 标注 。 
2. 2. 3 二 次 核查 

标注 完成 后 ， 对 于 所 有 标注 数据 进行 汇总 ， 对 一 次 标注 的 数据 进行 二 次 核查 。 目 的 在 于 
检查 标注 结果 是 否 正确 以 及 去 除 重复 翻译 的 词汇 。 


A 


3 结果 
通过 词典 搜索 以 及 后 续 的 人 工 标注 ， 我 们 最 后 生成 CC-LIWC 词典 包含 81 个 词类 与 


49136 条 词 条 。 
(1) 词汇 词类 分 布 情况 

每 个 大 词类 的 词汇 数量 分 布 情况 如 图 1 所 示 《 按 照 CC-LIWC 中 词汇 数 占 比 从 高 到 低 排 
序 ) 。CC-LIWC 词典 中 ， 词 类 词 数 占 比 排名 前 五 的 大 类 为 : 情感 词 、 动 机 词 、 个 人 关切 、 相 
对 词 、 认 知 过 程 词 。 相 比 SC-LIWC，CC-LIWC 词典 中 收录 的 情感 词 、 认 知 过 程 词 、 动 机 词 比 
例 明 显 增 加 ， 而 功能 词 、 生 理 过 程 词 、 个 人 关切 词 和 非 正式 语言 比例 明显 减少 。 
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图 1 CC-LIWC ( 左 ) 与 SC-LIWC( 右 ) 词类 词汇 数 分 布 情况 对 比 
(2) 单字 词 与 多 字 词 分 布 情况 
如 表 1 所 示 ，CC-LIWC 中 单字 词 与 双 字 词 占 比 降低 ， 而 多 字 词 占 比 增高 。 
表 1 CC-LIWC 与 SC-LIWC 单字 词 、 多 字 词 词 数 占 比 情况 对 比 


CC-LIWC SC-LIWC 
词 数 占 总 词 数 比例 词 数 占 总 词 数 比例 
单字 词 2566 5. 22% 946 9. 73% 
双 字 词 37287 75. 89% 7567 77. 85% 
多 字 词 9283 18. 89% 1207 12. 42% 
总 词 数 49136 100. 00% 9720 100. 00% 


4 讨论 
(1) 使 用 CC-LIWC 分 析 文 言 文 文本 

将 CC-LIWC 词典 用 于 分 析 孔 子 的 《论语 》( 节 选 包括 《学 而 》《 为 政 》《 八 丛 》《 述 而 》) 
以 及 韩 非 的 自传 文章 《 孤 愤 》， 得 到 两 者 词 频 差异 最 大 词类 前 十 位 的 统计 结果 如 图 2 所 示 。 
这 里 词 频 的 统计 方法 表示 为 公式 1。 
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图 2 《论语 (节选 ) 》 〈 左 ) 与 《 孤 愤 》【〔 右 ) LIWC 词 频 差 异 
从 图 2 可 以 看 出 ，《 论 语 节选) 》 有 更 多 的 “相对 词 ”、“ 时 间 词 ”、 


“洞察 词 ”， 而 韩 非 的 《 孤 愤 》 则 有 更 多 的 
“未 来 导向 词 ”、“ 动 机 词 ”和 “连接 词 ”。 


果 词 ”、 


类 ， 
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其 中 ， 


间 的 当下 《〈 某 时 某 刻 ， 某 段 时 间 等 ) ， 认 知 ] 
对 事物 的 认 知 所 得 结论 始终 
法 家 在 时 间 上 更 关注 未 来 ， 且 习 
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“时 间 词 ” 


(公式 1) 
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“ 犹 瑰 词 ”和 “洞察 词 ”是 “ 认 知 过 程 词 ” 的 子 类 ， 


“将 来 时 态 标定 词 ” 是 “时 态 标 定 词 ”的 子 类 。 由 此 可 见 ， 


sl 
人 碟 
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“动机 词 ”的 子 
《论语 (节选)》 更 关注 时 


F 更 偏好 洞察 体会， 了解 ， 悦 然 大 悟 等 》 ， 并 


E 视 个 人 成 就 动机 ， 在 认 知 上 注 
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保持 着 一 定 的 余地 〈 大 约 ， 好像 )， 体 现 了 颂 家 的 


P 庸 之 道 ， 而 


因果 关系 的 分 忆 


fF， 体现 了 法 


| 非常 频繁 ， 


多 为 


于 文言 虚词 目前 在 其 
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[的 匹配 


家 重视 辩证 的 思想 。 
(2) 局 限 
由 于 文言 文 有 其 固定 的 写作 格式 ， 导 致 文言 虚词 (之 乎 者 也 等 ) 使 ) 
相同 字 词 多 次 重复 出 现 , 造成 统计 结果 中 功能 词 的 词 频 占 比 很 大 , 但 对 
心理 学 意义 上 还 没有 较为 合适 的 解读 方式 。 
其 次 是 文言 词 中 ， 一 词 多 义 、 一 词 多 性 的 情况 普遍 存在 ， 对 词典 中 词汇 的 分 类 存在 一 
定 影响 。 这 也 会 影响 最 终 分 析 结 果 的 精确 性 。 
5 总 结 
本 研究 主要 介绍 了 古文 LIWC 词典 CC-LIWC 的 构建 过 程 ， 包 括 数据 的 获取 、 词 
和 人 工 标注 等 , 并 介绍 了 最 终生 成 的 词典 的 词类 构成 占 比 情况 。 最 后 使 用 CC-LIWC 词典 对 文 


言 文 进行 初步 分 析 ， 结 果 表 明 ，CC-LIWC 词典 能 够 有 效 区 分 文言 文 的 表达 倾向 。 接 下 来 的 下 
究 中 ,还 要 对 词典 进行 效 度 验证 ,并 将 词典 应 用 于 更 多 历史 研究 主题 ， 比 如 对 古人 的 大 五 人 


格 特征 分 析 等 。 
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